Magazine

Legal AI: l'Intelligenza Artificiale alla prova del tempo in ambito legale

27/05/2026

EnterprisePMIProfessionisti

L'adozione dei Large Language Models (LLM) nel settore legale ha ormai superato la fase dell'entusiasmo pionieristico per entrare in una vera e propria maturità applicativa. Oggi, avvocati, consulenti e dipartimenti legali aziendali si affidano quotidianamente all'Intelligenza Artificiale per l'analisi documentale, la ricerca di giurisprudenza e la revisione dei contratti. Eppure, se da un lato i modelli odierni dimostrano una notevole capacità di adattamento alla complessa terminologia giuridica, dall'altro nascondono un "tallone d'Achille" che viene spesso trascurato: la comprensione del tempo.

Nel diritto non è sufficiente sapere quali fatti siano accaduti: è di vitale importanza comprendere l'ordine esatto in cui si sono verificati. La validità di una clausola, la prescrizione di un reato o l'esito di una complessa controversia lavorativa dipendono intrinsecamente dalla sequenza cronologica degli eventi. Ricostruire queste relazioni temporali (il cosiddetto Temporal Reasoning) si sta rivelando una delle sfide più ardue per l'Intelligenza Artificiale.

Lo stato dell'arte: cosa dice la scienza

Fino a poco tempo fa, la letteratura scientifica si è concentrata prevalentemente sulla capacità degli LLM di estrarre concetti o prevedere l'esito di una sentenza, tralasciando le dinamiche temporali. Come evidenziato in studi fondamentali sul ragionamento di senso comune, come la ricerca presentata alla conferenza EMNLP, i modelli linguistici faticano enormemente quando devono adattare le proprie risposte a scenari che evolvono nel tempo.

In ambito prettamente legale, un primo passo importante è stato fatto con l'introduzione di LexTime, un dataset pubblico basato su reali reclami federali statunitensi. Tuttavia, la ricerca si è finora limitata a compiti di "verifica binaria": chiedere all'AI, in modo basilare, se una determinata affermazione cronologica fosse vera o falsa, testando per lo più modelli testuali classici (come le prime versioni di LLaMA o Mistral) e ignorando l'impatto dei nuovissimi modelli dotati di capacità di ragionamento profondo (Deep Reasoning).

Oltre il vero o falso: testare l'AI su scenari complessi

Per capire se l'AI sia davvero pronta per i tribunali, è necessario alzare l'asticella. Un recente studio ha fatto esattamente questo, mettendo alla prova i più avanzati LLM (rilasciati fino ad aprile 2026) su due compiti specifici, estraendo paragrafi di contesto da veri documenti legali:

LETOV (Legal Event Temporal Ordering Verification): un compito di verifica in cui, data una sequenza di due eventi legali, il modello deve stabilire se la deduzione temporale proposta dall'utente è corretta o contraddittoria;
LETOC (Legal Event Temporal Ordering Classification): un compito molto più complesso e introdotto ex novo. Qui il modello non deve limitarsi a dire "sì" o "no", ma deve classificare e predire la corretta relazione temporale tra due eventi, scegliendo se un fatto "precede", "segue" o è "simultaneo" a un altro.

La metodologia: come far ragionare una macchina

Per valutare le reali capacità dei modelli, i ricercatori hanno utilizzato strategie di In-Context Learning, ovvero tecniche per guidare l'apprendimento del modello direttamente tramite il prompt (il comando testuale), senza riprogrammarlo alla base.

Uno dei test più importanti ha riguardato il Few-Shot Learning, ovvero la somministrazione di esempi. Come accade per gli esseri umani di fronte a un problema logico nuovo, fornire all'AI uno o tre esempi di risoluzione prima di porre la domanda finale migliora drasticamente la sua capacità di generalizzare e risolvere il caso.

Il paradosso del "Deep Reasoning": pensare troppo non basta

L'aspetto più affascinante (e per certi versi controintuitivo) della ricerca è emerso testando il Reasoning Effort, ovvero la possibilità di concedere all'AI più tempo e più token (potenza di calcolo) per "pensare" prima di rispondere, utilizzando modelli dotati di Deep Reasoning come OpenAI o3 o Grok 4.

I test hanno dimostrato che aumentare lo sforzo di ragionamento porta a miglioramenti solo marginali. Perché? La risposta è scientificamente rilevante: la potenza di calcolo non può sostituire la competenza verticale. I modelli generalisti possono "pensare" più a lungo, ma non avendo un background giuridico sufficientemente profondo, non riescono a tradurre questo sforzo computazionale in un reale salto qualitativo nella comprensione del diritto.

A livello di performance assolute, il modello Grok 4 (in configurazione con 3 esempi forniti) ha superato lo stato dell'arte, ottenendo un'accuratezza dell'85.28% nel task di verifica e dell'81.74% in quello di classificazione. Tuttavia, questo risultato porta con sé un problema di costi e tempi: l'inferenza di Grok 4 può superare il minuto di attesa, rendendolo inadatto per applicazioni in tempo reale.

Al contrario, l'analisi ha fatto emergere modelli estremamente bilanciati come Claude Sonnet 4.5 e Gemini 3 Flash, che offrono performance di altissimo livello a una frazione del costo e del tempo. Notevole anche il comportamento dei modelli open-source come Mistral Devstral 2, che pur avendo un'accuratezza generale leggermente inferiore, ha registrato capacità molto elevate nell'individuare i veri positivi (Recall oltre il 92%).

L'impegno per un'AI affidabile: la sinergia tra Aruba e Politecnico di Torino

I risultati di questa ricerca dimostrano che, per quanto l'Intelligenza Artificiale sia potente, l'ambito legale richiede un livello di precisione chirurgica che i modelli generalisti, da soli, faticano ancora a garantire in modo assoluto. Per superare questi limiti servono studi mirati, capaci di analizzare gli errori (anche tramite tecniche di Explainable AI) e di addestrare i modelli su dati giuridici altamente specifici.

È esattamente in questa direzione di frontiera che si muove l'impegno di Aruba. Lo studio analizzato in questo articolo, intitolato "Exploring In-Context Learning Strategies for Temporal Ordering of Legal Events using Large Language Models", è il frutto diretto di un progetto di ricerca congiunto tra Aruba AI e il Politecnico di Torino.

Il lavoro—che ha visto la collaborazione di Andrea Cacioli, del Prof. Luca Cagliero (Dipartimento di Automatica e Informatica del Politecnico) e di Francesco Tarasconi (Artificial Intelligence Manager di Aruba)—è stato presentato a Tampere, in Finlandia, in occasione della prestigiosa EDBT/ICDT 2026 Joint Conference (Workshop DARLI-AP).

Questa sinergia tra eccellenza accademica e sviluppo industriale rappresenta un passaggio fondamentale, forse meno visibile al grande pubblico rispetto al lancio di un nuovo software, ma assolutamente decisivo. L'obiettivo di Aruba non è semplicemente adottare le tecnologie del momento, ma contribuire attivamente a plasmarle, per costruire un'Intelligenza Artificiale che sia sempre più trasparente, sicura e, soprattutto, inequivocabilmente affidabile.

Articoli recenti

Intelligenza artificiale

Legal AI: l'Intelligenza Artificiale alla prova del tempo in ambito legale

L'adozione dei Large Language Models (LLM) nel settore legale ha ormai superato la fase dell'entusiasmo pionieristico per entrare in una vera e propria maturità applicativa.

Sito web

Schema Markup e dati strutturati: cosa sono e perché sono importanti

I motori di ricerca sono in grado di scansionare e indicizzare i testi di un sito web con estrema precisione, ma faticano ancora a comprenderne il contesto.

Sito web

Progressive Web Apps (PWA): il futuro delle applicazioni web

Sviluppare e mantenere un'app nativa per iOS e Android richiede budget elevati, team con competenze eterogenee (Swift, Kotlin) e la sottomissione alle rigide policy degli store digitali.

Sito web

Trust signals: elementi che aumentano la fiducia degli utenti

Nel web di oggi, l'attenzione dell'utente è frammentata e il livello di scetticismo verso nuovi brand o e-commerce è ai massimi storici. Per le PMI e i professionisti, non è più sufficiente acquisire traffico, bisogna convertirlo.

Sito web

Web Performance Optimization: tecniche per velocizzare il tuo sito

La latenza è un costo. Ottimizzare le performance di un sito web (WPO) non è più un vezzo estetico, ma un requisito ingegneristico che impatta direttamente su infrastruttura, posizionamento e revenue.

Articoli più letti

Fatturazione Elettronica

Le scadenze fiscali del 2025

Entro il 31 marzo 2025, i contribuenti che hanno aderito al concordato preventivo biennale entro il 12 dicembre 2024 possono sanare le irregolarità dichiarative afferenti agli anni 2018-2022, versando un’imposta sostitutiva delle imposte sui redditi e relative addizionali e dell’IRAP.

Hosting

Dieci anni di .cloud: l’estensione che ha dato un nome al futuro digitale

Oggi consideriamo la parola "cloud" come un elemento naturale del nostro quotidiano digitale, ma c’è stato un momento preciso in cui ha smesso di essere solo un concetto tecnico per diventare un’identità di brand globale.

Simyousoon

eSIM vs SIM tradizionale: guida completa 2026

Negli ultimi anni, il mondo della connettività mobile sta vivendo una trasformazione silenziosa ma profonda. La eSIM — abbreviazione di embedded SIM — sta sostituendo gradualmente la SIM tradizionale, offrendo maggiore flessibilità e un approccio più moderno alla gestione delle linee mobili.

Fatturazione Elettronica

Le scadenze fiscali del 2026

Dal 2026, il termine per presentare le dichiarazioni in materia di imposte sui redditi e di IRAP è stabilito dal 15 aprile al 31 ottobre dell’anno successivo al periodo d’imposta cui le stesse si riferiscono.

Inside

Data Spaces: condividere i dati senza perderne il controllo. Ecco il futuro dell’economia europea

I data spaces (spazi dati) sono un modo “europeo” e pragmatico di condividere dati tra aziende e partner senza perdere il controllo: un insieme di regole, strumenti e servizi che rendono lo scambio sicuro, tracciabile e interoperabile.

Hosting e domini

PEC e Trust Services

Connettività

Cloud

Server e colocation

Altri servizi

Aruba Business

Certificati SSL Actalis

Microsoft 365

Pratiche.it

SMS

Magazine

Legal AI: l'Intelligenza Artificiale alla prova del tempo in ambito legale

Lo stato dell'arte: cosa dice la scienza

Oltre il vero o falso: testare l'AI su scenari complessi

La metodologia: come far ragionare una macchina

Il paradosso del "Deep Reasoning": pensare troppo non basta

L'impegno per un'AI affidabile: la sinergia tra Aruba e Politecnico di Torino

Hosting e domini

PEC e Trust Services

Connettività

Cloud

Server e colocation

Altri servizi

Aruba Business

Certificati SSL Actalis

Microsoft 365

Pratiche.it

SMS

Magazine

Legal AI: l'Intelligenza Artificiale alla prova del tempo in ambito legale

Lo stato dell'arte: cosa dice la scienza

Oltre il vero o falso: testare l'AI su scenari complessi

La metodologia: come far ragionare una macchina

Il paradosso del "Deep Reasoning": pensare troppo non basta

L'impegno per un'AI affidabile: la sinergia tra Aruba e Politecnico di Torino

Guide

Assistenza